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情境 本 体 驱 动 的 受 源 知识 融合 框架 
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摘要 : [目的 /意义 ] 情 境 建 模 是 解决 信息 泛滥 、 信 息 过 载 、 实 现 信 息 按 需 服务 的 重要 手段 ,目前 已 有 的 知识 
库 构 建 和 知识 融合 方法 普遍 忽略 了 情境 信息 ,阻碍 了 知识 库 的 实际 应 用 ,降低 了 知识 服务 的 效率 和 效果 。[ 方 
法 /过 程 ] 综合 考 虑 环境 情境 、 个 人 情境 和 领域 本 体 三 个 方面 ,提出 一 种 情境 本 体 驱 动 的 多 源 知 识 融 合 框 架 , 并 
以 此 框架 融合 生成 基于 情境 的 药物 不 良 反应 知识 库 ConADR Ontology。 在 本 框架 的 指导 下 ,以 药物 不 良 反应 的 
知识 库 构 建 为 例 , 半 自动 实现 情境 本 体 模式 层 的 构建 和 数据 层 的 扩充 ;并 以 情境 本 体 作 为 中 介 本 体 ,实现 情境 
本 体 , 药 物 不 良 反 应 领域 本 体 ADReCS 和 人 类 疾病 领域 本 体 Disease Ontology 间 的 融合 ;最 终 在 此 基础 上 实现 基 


T-SPARQL 的 案例 查询 。[ 
理论 性 指导 和 参考 价值 。 


结果 /结论 ] 实例 验证 表明 ,本 框架 具有 一 定 的 可 行 性 ,对 知识 库 的 建设 和 应 用 具有 
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大 数据 时 代 ,数字 化 信息 规模 呈现 指数 级 增长 ， 
类 型 复 杂种 类 繁多 ,来 源 广泛 ,严重 阻碍 了 用 户 获取 
存 亲 信息 的 进程 。 如 何 从 庞杂 的 多 源 异 构 数 据 中 抽取 
有 铃 值 的 信息 并 提供 高 效 的 知识 服务 ,成 为 起 需 解决 
的 间 题 。 知 识 库 为 用 户 提供 经 过 提炼 和 验证 的 高 质量 
的 关 识 单元 ,成 为 大 数据 与 知识 服务 之 间 的 桥梁 ,为 最 
终 裔 效 知识 服务 提供 了 有 力 的 保障 上 。 

目前 ,已 有 知识 库 大 都 以 本 体 技术 为 基础 ,针对 某 
个 领域 具体 的 问题 ,将 领域 理论 知识 .事实 数据 以 及 经 
验 描述 等 依据 语义 关联 有 机 地 组 织 成 知识 集群 1。 但 
是 ,这 些 本 体 知识 库 的 构建 过 程 普遍 忽略 了 情境 信 
息 2 涩 。 情 境 建 模 是 知识 服务 的 重要 组 成 部 分 ,情境 
信息 有 效 地 揭示 了 知识 与 任务 需求 间 的 相关 性 ,结合 
情境 信息 向 用 户 提供 适合 当前 情形 的 信息 和 服务 ,是 
解决 信息 泛滥 、 信 息 过 载 ,实现 信息 按 需 服务 的 重要 手 
ERU. 。 笔 者 综合 考虑 情境 因素 ,并 充分 利用 成 熟 领 域 
本 体 的 完善 的 概念 体系 和 逻辑 架构 ,从 环境 情境 .个 人 
情境 和 领域 本 体 三 个 方面 ,提出 了 一 种 情境 本 体 驱 动 


的 多 源 知识 融合 框架 ,并 以 此 框架 为 指导 ,以 药物 不 良 
反应 知识 库 构 建 为 例 ,研究 了 情境 本 体 构建 以 及 知识 
融合 ,对 知识 库 的 建设 和 应 用 提供 一 些 理论 性 的 指导 
和 参考 价值 。 而 且 , 笔 者 构建 及 融合 生成 的 基于 情境 
的 药物 不 良 反 应 知识 库 ,为 医学 智能 信息 咨询 和 知识 
服务 提供 了 语义 支撑 。 


1.1 情境 本 体 和 知识 服务 

知识 服务 是 将 用 户 需 求 和 情境 融入 用 户 解 决 问题 
的 过 程 中 ,从 而 有 效 支持 知识 应 用 和 创新 服务 。 其 中 ， 
情境 又 称 上 下 文 ,是 指 任何 可 以 用 来 刻画 一 个 实体 特 
征 的 信息 ,包括 时 间 、 地 点 ,温度 、 用 户 等 ”。 目 前 , 知 
识 服务 处 在 大 数据 的 环境 下 ,主要 面临 两 方面 的 挑战 : 
QD 如 何 更 精确 的 定义 用 户 需 求 ;如 如 何 从 各 类 多 维 、 异 
构 的 数据 源 中 提取 有 效 信息 、 组 织 成 知识 ,并 支持 用 户 
决策 。 情 境 建 模 通过 对 用 户 环境 和 用 户 资 料 进 行 描 
述 ,可 以 协助 我 们 深入 理解 用 户 需 求 , 并 对 无 关 信息 进 
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行 过 滤 ,提供 精 准 化 的 知识 服务 。 

目前 ,基于 本 体 的 情境 模型 ,在 提供 清晰 的 情境 概 
念 定义 的 同时 ,描述 了 概念 间 的 语义 关系 ,被 认为 是 非 
党 有 效 的 情境 建 模 方法 , 备 受 推崇 “”。 研 究 者 提出 
了 很 多 情境 本 体 建 模 的 普 适 性 框架 ,X. H. Wang 等 " 
针对 普 适 计算 情境 ,提出 了 一 种 基于 OWL 的 情境 本 体 
CONON( CONtext Ontology) ,该 本 体 采用 分 层 结构 对 4 
种 情境 实体 一 一 位 置 、 活 动用 户 和 设备 进行 概念 拓 
展 ,强调 模型 的 可 扩展 性 ,并 上 且 支持 基于 情境 的 逻辑 推 
理 ;N，Aloui 等 ”为 了 实现 在 学 习 内 容 中 加 入 注释 文 
档 实现 情境 关联 , 提出 了 分 层 结构 的 广义 情境 本 体 模 
型 ,对 6 种 学 习 相关 的 情境 实体 一 一 用 户 .活动 .环境 、 
设备 ,学习 重用 和 学 习 目标 ,进行 自 上 而 下 的 迭代 建 
模 * 这 些 模型 在 简洁 性 .可 扩展 性 可 施行 性 ,Jena 兼容 
性 等 角度 各 有 优 缺 点 ,但 是 充分 考虑 了 用 户 所 处 的 环 
境 3 条 件 .背景 等 因素 ,很 好 地 满足 了 知识 服务 对 用 户 

的 准确 性 可靠 性 、 自 适应 和 推理 性 等 方面 的 要 
3 纹 些 模型 框架 也 被 广泛 地 借鉴 到 各 种 知识 服务 之 
电池 机 林 等 中 通过 构建 基于 情境 的 高 血压 药物 本 体 ， 
实现 了 高 血压 药物 的 个 性 化 推荐 ; 活 旭 伟 等 中 提出 了 
让 人 以 用 户 情境 本 体 为 核心 的 自 适 应 个 性 化 信息 服务 
休 驳 框架 ,并 基于 该 框架 实现 了 情境 感知 的 个 性 化 信 
感 闪 索 ; 周 莉 等 习 针 对 用 户 在 电子 商务 中 获取 个 性 化 
商 苇 信息 困难 的 问题 ,提出 以 多 维 分 层 用 户 情境 本 体 
六 稻 心 的 个 性 化 商品 信息 服务 框架 ;M，Sohn 497 £f 
对 管 能 家 电 应 用 ,提出 了 一 种 基于 模糊 论 和 案例 推理 
的 情境 本 体 的 个 性 化 服务 框架 ,针对 传感器 采集 的 动 
态 疾 据 流 , 将 数值 数据 转换 成 为 语义 词 ,如 “高 "“ 中 ” 
"d" 35. 

但 是 ,目前 情境 本 体 的 构建 只 考虑 情境 信息 , 普 ; 
上 忽略 了 与 领域 相关 的 隐 性 的 背景 语义 。 成 熟 的 领域 
本 体 作为 某 一 学 科 领 域 中 概念 及 其 关系 的 可 复 用 的 术 
语词 汇 " ,可 以 实现 对 情境 本 体 隐 含 语义 的 补充 。 而 
且 ,这 些 本 体 大 都 具备 完善 的 概念 体系 和 逻辑 架构 ,可 
以 通过 知识 融合 的 方式 ,扩展 本 体 的 语义 互联 和 可 操 


共享 .关联 和 发 现 ,进而 得 到 融合 后 的 新 知识 或 新 的 解 
决 方案 ,从 而 达到 知识 服务 的 目标 。 根 据 A. Smirnov 
的 总 结 ,知识 融合 的 一 大 目标 就 是 产生 新 的 知识 ,将 多 
个 知识 源 集成 为 一 个 新 的 数据 对 象 , 即 构建 知识 
库 ” 。 周 宇和 欧 石 燕 ' ”认为 将 某 领域 零散 的 知识 聚 
焦 到 面向 特定 领域 实际 问题 的 知识 库 ,可 以 更 好 地 支 
撑 用 户 决策 。 

A. Preece 等 ' "把 知识 融合 的 过 程 划 分 为 三 个 步 
又 :知识 定位 ,知识 转换 和 知识 融合 。 其 中 ,找到 高 质 
量 的 知识 源 对 知识 服务 的 质量 至 关 重 要 。 刘 晓 娟 
a UU 发 现 知识 融合 系统 的 共性 之 一 是 使 用 成 熟 的 领 
域 本 体 。 领 域 本 体 是 特定 领域 概念 及 其 关系 的 可 复 用 
的 术语 词汇 ” ,而 且 大 都 具备 完善 的 体系 。 但 是 , 领 
域 本 体 因 为 是 不 同 的 组 织 和 机 构 根 据 自身 的 需求 和 理 
念 构建 而 成 ,充满 了 异 构 性 和 多 样 性 "”。 目 前 存在 的 
本 体 结构 的 文件 类 型 主要 有 OWL、RDF , Turtle , OBO , 
XML 数据库 等 ,通过 知识 融合 可 以 消除 概念 的 歧义 ， 
剔除 宛 余 和 错误 概念 ,从 而 确保 知识 的 质量 "5 。 研 究 
者 对 知识 融合 提出 了 很 多 的 方法 。 王 丽 伟 等 提出 
了 基于 映射 乔 接 点 的 多 领域 本 体 映 射 和 分 类 聚合 理论 
模型 ,并 实现 了 RxNorm 与 NDF-RT 两 种 药物 本 体 之 间 
的 映射 ; 王 海 栋 等 "| 提出 了 一 种 基于 置信 度 理 论 的 网 
络 知识 融合 系统 模型 ,弥补 了 传统 知识 融合 系统 在 不 
确定 性 处 理 上 的 不 足 ,并 使 用 反馈 自 适应 机 制 自动 校 
正 置 信 度 因子 以 避免 初始 置信 度 设 置 的 主观 性 。 以 上 
领域 本 体 融 合 的 形式 各 异 ,但 从 方法 上 而 言 , 主 要 是 通 
过 实体 链接 和 知识 合并 的 方式 实现 知识 融合 ,通过 反 
馈 机 制 对 知识 质量 进行 控制 。 这 种 思路 对 本 文具 有 很 
好 的 借鉴 作用 。 


2 ”情境 本 体 驱 动 的 多 源 知识 融合 框架 
情境 本 体 在 形式 上 可 为 多 个 来 源 的 领域 知识 的 融 

合 提供 映射 桥接 点 , 显 式 声明 出 各 个 来 源 知识 的 内 在 

联系 ;在 内 容 上 可 有 效 地 规范 表示 情境 信息 ,揭示 出 实 


际 任务 的 个 性 化 需求 。 情 境 本 体 通过 形式 和 内 容 的 结 


作 性 ,从 而 实现 将 某 领 域 零散 的 知识 聚焦 到 面向 特定 
领域 实际 问题 的 知识 库 。 
1.2 ”知识 融合 

知识 服务 的 核心 要 素 是 为 用 户 提 供 经 过 精炼 和 验 
证 的 高 质量 的 知识 单元 ,这 些 知识 单元 一 般 有 多 种 来 
源 , 需 要 进行 处 理 ”。 知 识 融 合 通 过 对 多 来 源 、 跨 领 
域 . 大 规模 的 异 构 数据 进行 实时 准确 、 智 能 的 分 析 和 
提取 ,通过 先进 的 知识 处 理 技术 实现 知识 单元 的 揭示 、 
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合 ,为 融合 多 源 领域 知识 .匹配 个 性 化 需求 .提供 个 性 
化 知识 服务 奠定 了 基础 。 笔 者 参照 A，Preece 等 '“ 提 
出 的 KRAFT 知识 融合 系统 架构 和 王 海 栋 等 ”提出 的 
知识 融合 系统 ,从 知识 资源 .知识 转换 和 知识 融合 三 个 
角度 ,提出 一 种 情境 本 体 驱 动 的 多 源 知识 融合 框架 ( 见 
图 1)。 

知识 资源 层 是 知识 融合 的 数据 基础 ,包含 一 切 与 
知识 融合 过 程 相关 且 未 经 处 理 的 客观 信息 来 源 总 和 。 


ChinaXiv 合 作 期 刊 


ERM, KR, ER. 情境 本 体 驱 动 的 多 源 知 识 融 合 框 架 [J]]. 图 书 情报 工作 ,2018 ,62(22) :109 - 117. 


这 些 资源 包括 自传 感 器 的 实时 环境 数据 ,在 社交 网 站 
采集 的 用 户 个 人 资料 以 及 相关 成 熟 的 领域 知识 库 文件 
等 。 从 结构 上 而 言 ,这些 数 据 一 般 为 非 结构 化 的 文本 、 
半 结构 化 的 网 页 或 者 结构 异 构 的 本 体 等 ,需要 经 过 进 
一 步 的 数据 处 理 , 才 能 被 接 下 来 的 知识 融合 过 程 所 用 。 
知识 转换 层 通过 知识 转换 器 对 不 同 来 源 的 知识 进 
行 抽取 ,分析 ,转换 ,将 未 经 处 理 的 知识 资源 转换 成 统 
一 的 知识 表示 , 从 而 消除 知识 资源 的 异 构 性 。 情 境 本 
体 驱 动 的 知识 融合 过 程 需要 利用 原始 知识 资源 构建 情 
境 本 体 ,这 一 过 程 是 典型 的 数据 驱动 的 建 模 过 程 ,根据 
数据 及 情境 需求 ,人 工 构建 情境 概念 模式 层 , 并 通过 抽 
取 网 站 及 传感器 数据 ,并 使 用 一 些 模糊 函数 的 方法 进 
行 数据 处 理 后 ,采用 算法 自动 对 情境 数据 层 进行 扩充 ， 
通过 必要 的 数据 质量 检查 来 控制 情境 本 体 的 质量 , 当 
新 的 数据 源 加 入 时 ,可 以 重复 此 过 程 进行 情境 本 体 模 
式 局 和 数据 层 的 更 新 。 另 外 ,对 于 异 构 的 领域 本 体 ,如 
OW RDF „Turtle .0BO XML 等 格式 ,需要 统一 转换 为 
ON, 模型 。 
OO 知识 融合 层 是 融合 系统 的 核心 , 主要 包括 融合 算 
VE c HUNE 融合 知识 库 三 部 分 。 情 境 本 体 驱 动 的 
知 调 融合 过 程 参考 KRAFT, 在 解决 语义 异 质 的 问题 时 
引 ER 了 共享 本 体 概念, 为 问题 领域 的 词汇 的 语义 说 明 
所 测 一 个 共享 词汇 表 ,从 而 实现 多 个 来 源 的 本 体 之 间 
的 奢 射 ,本 文中 的 情境 本 体 恰好 扮演 了 共享 本 体 的 角 
信和 情 境 本 体 为 所 有 领域 本 体 提供 喘 射 乔 接 点 ,根据 
融 禾 规 则 库 和 知识 融合 算法 ,可 以 实现 各 相关 领域 本 
体 的 集成 和 综合 ,融合 形成 新 的 知识 ,并 将 最 终结 果 存 
储 到 融合 知识 库 中 。 在 融合 知识 库 的 基础 上 ,可 以 实 
现 本 体 数据 间 的 共享 和 互 操作 问题 ,也 可 以 通过 一 些 
算法 实现 知识 发 现 和 数据 质量 检查 。 


3 ”药物 不 良 反 应 的 知识 融合 研究 


作为 主要 的 公共 健康 问题 ,药物 不 良 反 应 (Ad- 
verse Drug Reaction , ADR) 已 成 为 发 病 率 和 死亡 率 的 首 
要 原因 之 一 '” ,严重 威胁 着 患者 的 健康 、 遵 医 行为 和 
医疗 花费 ”。 尽 管 ADR 在 临床 试验 期 间 被 监测 ,但 
对 样本 大 小 和 研究 人 群 的 实际 限制 意味 着 在 批准 使 用 
之 前 ,无 法 检测 到 药物 的 所 有 不 良 反 应 事件 。 目 前 , 针 
对 药物 的 持续 预警 ,形成 了 ADR 自发 报告 系统 ,如 美 
国 的 FDA 不 良 事件 报告 系统 ;以 及 在 此 基础 上 构建 了 
一 系列 本 体 知识 库 , 如 SIDER , ADReCS IntSide 等 。 但 
是 ,药物 不 良 反应 具有 明显 的 不 确定 性 、 情 境 依赖 性 和 
个 体 差异 性 。 针 对 个 体 患 者 ,药物 不 良 反 应 的 发 生 与 
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Wiki 
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图 1 情境 本 体 驱动 的 知识 融合 框架 


TESI 年 龄 门诊、 住院、 给 药方 式 \ 历 史 患 病 以 及 合并 
有 药 等 情境 因素 息息相关  。 因 此 ,如 何 基于 情境 ， 
融合 已 有 案例 和 多 源 本 体 知识 库 , 为 用 户 提 供 个 性 化 
的 药物 不 良 反 应 案例 查询 ,使 其 规避 药物 不 良 反 应 的 
风险 ,成 为 吸 待 解决 的 问题 。 笔 者 以 药物 不 良 反 应 知 
识 库 构建 为 例 ,演示 情境 本 体 驱 动 的 多 源 知识 融合 模 
型 构建 方法 以 及 查询 应 用 。 
3.1 知识 资源 
3.1.1 情境 数据 资源 ”在线 患者 病例 数据 共享 平台 
( PatientsLikeMe) 是 一 个 典型 的 病友 社交 平台 ,通过 互 
助 式 在 线 问 诊 ,患者 在 平台 上 主动 记录 交流 和 分 享 自 
己 的 健康 问题 和 治疗 情况 ,寻找 相似 病例 进行 参考 。 
PatientsLikeMe 平台 发 布 于 2004 年 ,由 麻 省 理工 学 院 的 
工程 师 J. Heywood 与 其 三 弟 联 合 创 办 。 目 前 ,社区 已 
拥有 40 多 万 的 会 员 ,涉足 病 种 超过 2 500 个 ,成 为 全 美 
最 大 的 健康 数据 共享 平台 。 平台 结构 化 数据 分 类 较为 
细致 , 当 查 找 一 个 病 种 时 ,可 以 看 到 所 有 与 该 病 种 相关 
的 病友 信息 ,包括 他 们 的 治疗 方案 、 医 生 开具 的 用 药 计 
划 , 甚 至 副作用 人 群 等 。 

网 站 汇聚 了 大 量 珍 贵 的 病人 情境 数据 ,笔者 根据 
人 研究 需要 ,从 PatientsLikeMe 平台 上 抓 取 235 个 用 户 ， 
包括 用 户 的 个 人 基本 资料 历史 病例 数据 ,用药 情 况 、 
药物 评价 .个 人 情绪 波动 等 情境 信息 , 共 620 条 情境 数 
据 。 
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3.1.2. 选取 的 领域 本 体 

(1) ADReCS( http ://bioinf. xmu. edu. cn/ ADReCS/ 
index. jsp) 是 由 厦门 大 学 生物 信息 学 辅助 药物 开发 研 
究 组 构建 的 一 个 关于 药物 不 良 反应 的 知识 库 ,该 知识 
库 实现 了 药物 不 良 反 应 术语 的 标准 化 以 及 概念 层次 分 
类 ,被 国际 上 广泛 使 用 。 该 知识 库 的 药物 及 不 良 反应 
数据 抽取 开源 的 医疗 知识 库 如 DailyMed、MedDRA、 
SIDER2 DrugBank, PubChem, UMIS 等 , 当前 包含 
21 237 个 药物 不 恨 反应 记录 ,其 中 有 137 619 个 药物 和 
药物 不 良 反 应 关系 对 。 知 识 库 可 在 其 官网 中 下 载 获 
取 , 格 式 为 XML 格式 ,其 中 ,概念 间 的 层次 关系 由 一 组 
特殊 的 编码 (xx. xx. xx. xxx) 来 体现 。 

(2) Disease Ontology( http ://www. disease -ontology. 
om 是 由 美国 马里 兰 大 学 医学 院 提 供 的 一 个 标准 的 人 
类 交 病 知识 库 , 知 识 库 通过 将 疾病 本 体 术语 交叉 映射 
sips 学 主题 词 表 MeSH ( Medical Subject Heading 
Tas) .国际 疾病 分 类 法 ICD ( International Classifica- 
tigrcof Diseases) ,美国 国立 癌症 研究 所 氢 词 表 NCIT 
国际 系统 
医 欧 术语 集 SNOMED( The Systematized Nomenclature of 
Medicine) 和 在 线 人 类 孟 德尔 遗传 数据 库 OMIM (Online 
Mendelian Inheritance in Man) 等 知识 库 中 来 达到 疾病 
种 并 学 术语 的 整合 目的 ,知识 库存 储 为 标准 的 开放 生 
VEA As OBO (Open Biomedical Ontologies ) 格式 ， 
FRU: 09 8E" EREDE. 
3:028 情境 本 体 的 构建 

-定义 1 (情境 本 体 ) 设 情境 本 体 为 CG= < 6,,6,,R 

> 。 其 中 ,C, 为 模式 层 ,cv 代表 数据 层 ,R 代表 两 者 之 
间 的 对 应 关系 。 
(1) 模 式 层 C, = «N,,P,,E, >。 其 中 ,NN, 表示 位 
置 活动 .用户 .设备 .问题 方案 和 领域 相关 实体 概念 
RP, 表示 关系 属性 集合 ,包含 : 父 类 关系 (subClas- 
sOf)、 相 等 关系 (equivalentClass ) 因果 关系 (cause- 
Class) 以 及 用 户 自 定 义 的 用 来 描述 概念 的 相关 性 质 ， 
如 药物 概念 的 领域 属性 ;E, 表示 概念 节点 间 的 关系 集 
*,E,CN,xP.xN,, 

(2) 数 据 层 C, = < Na Pa Ea > 表示 模式 层 的 实例 
化 。 其 中 ,N, 表示 实例 集合 (w,) 或 者 字面 值 集合 (lit- 
erals) ;P, 表示 属性 集合 ,包括 对 象 属性 集合 ( 当 N = 
N,) 和 数值 属性 集合 ( 当 N, = literals) ; E, 表示 数据 层 
节点 间 的 关系 集合 。 

(3)G, 和 G, 间 的 关系 R= | (instance, rdf:type, 


(The National Cancer Institute’ s Thesaurus ) 、 
md 
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class) l instance e N,, classe N,] o 

依据 情境 本 体 的 定义 ,在 模式 层 设 计时 ,笔者 选取 
位 置 活动 .用户 .设备 .问题 和 解决 方案 6 个 上 层 核心 
概念 , 其中, 位置 ,活动 .用 户 、 设 备 参考 CONON 模 
型 ” ;问题 与 解决 方案 是 综合 考虑 情境 本 体 对 知识 服 
务 ,如 智能 咨询 服务 ,用户 画像 等 的 支持 功能 以 及 在 问 
题 发 现 , 如 预警 上 的 支持 。 问 题 包 含 用 户 直 接 提 问 或 
搜索 的 显 性 问题 以 及 系统 在 情境 案例 本 体 之 上 进行 挖 
掘 、 推 类 出 的 用 户 可 能 存在 的 隐 性 问题 两 部 分 。 解 决 
方案 是 通过 在 情境 案例 知识 库 上 进行 分 类 、 归 纳 、 关 
WX .推理 得 到 的 问题 解决 路 径 。 综 合 考虑 药物 不 良 反 
应 的 领域 特殊 性 ,笔者 对 情境 本 体 上 层 概 念 进行 细 化 ， 
扩展 出 药物 ,药物 使 用 、 药 物 评价 疾病 等 类 ,并 通过 
protégé 构建 情境 本 体 的 类 以 及 属性 层次 结构 ,本 体 为 
标准 的 OWL/RDF 格式 。 如 图 2 所 示 ,a 是 情境 本 体 概 
念 图 ,b 是 情境 本 体 的 类 ,c 是 情境 本 体 的 对 象 属性 ,d 
是 情境 本 体 的 数值 属性 。 

在 数据 层 扩展 时 ,笔者 采用 Java 编程 的 方式 ,对 从 
PatientsLikeMe 平台 上 抓 取 的 用 户 情境 数据 进行 基本 
的 结构 化 抽取 和 规范 化 表示 ,并 进一步 使 用 jena 填充 
情境 本 体 的 实例 。 其 中 ,针对 个 人 信息 数据 中 存在 的 
数值 型 数据 和 传感器 采集 的 动态 数据 流 , 采 纳 具有 和 较 
高 计算 性 能 的 梯形 模糊 隶属 函数 “” ,构建 用 于 模糊 
化 的 规则 ,基于 Jena 中 自 带 的 规则 引擎 
cRuleReasoner ,对 数值 型 数据 进行 模糊 化 。 

定义 2: 模 糊 函 数 Misa CX) : 


Generi- 


0, X <a 

X-a x< 

LÄS 
Bi-a » P. 
Mica (X) = 1, B; <XSy; 
X-ô X«8 

= LÄS 

& 了 
0, ô< X 


其 中 ,X 为 需要 进行 转换 的 数值 型 问题 情境 ,4 是 模 
糊 后 的 语义 词 属性 集合 ,w_,(X) 即 数值 变量 X 在 语义 词 i 
eA i TRIEBE, ua (X) e [0,1] ,最 终 选择 max 
(Qu 4 CX2)) P B5 i 值 为 工 的 模糊 语义 值 。 例 如 X 代表 
“Age” , i 是 集合 4 中 的 一 个 语义 值 。4 = lili = Young, 
Middle ,Old | ,ai，B，y，5; 是 梯形 模糊 隶属 函数 的 参 
数 。 由 模糊 函数 可 得 用 于 模糊 化 的 规则 (如 55 < real- 
Age—fuzzyAge = “Old” ) ,并 使 用 GenericRuleReasoner 进 
行 自动 推理 。 当 realAge 为 57 时 ,自动 进行 数值 模糊 化 ， 
KA“ 0ld "作为 57 岁 的 语义 词 。 见 图 3。 
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(b) 类 以 及 实例 数 (0) 对 象 属性 (由 部 分 数值 属性 
2 情境 本 体 知识 库 的 构建 
3.2.2 ”本体 标准 化 ”将 不 同 格式 的 本 体 ,如 OBO, 的 药物 及 药物 编码 ,其 中 ADR 编码 通过 一 组 特殊 的 编 


XML/RDF ,OWL/RDF „Turtle XML ,数据库 等 进行 结 梳 
统一 化 是 知识 融合 的 基础 。 一 般 思 路 是 将 数据 源 统一 
转换 成 为 OWL/RDF fX 7 。 

笔者 利用 2017 年 6 月 版 的 ADReCS 提供 的 两 个 
本 地 文件 :DADReCS_ADR_info. xml 包含 药物 了 D、 药 
物 名 称 .适应 症 药物 描述 .药物 名 称 的 同义词 .ADR 
名 称 .ADR 编码 和 ADR 频率 等 ;@ADReCS_ADR info. 
xml 包括 ADR 编码 .ADR 名 称 、ADR 同义词 产生 ADR 


fij ( xx. xx. xx. xxx) 来 表现 药物 概念 间 的 层次 关系 。 对 
于 ADReCS, 采 用 的 是 树 形 结构 的 XML. 文件 ,而 RDF 
是 用 一 种 类 似 图 的 结构 来 表示 属性 连接 资源 的 陈述 ， 
XML 文件 到 RDF 的 转换 不 存在 万 能 转换 器 ,笔者 根据 
ADReCS 的 两 个 xml 文件 间 的 逻辑 关联 以 及 ADR 编码 
所 表现 出 的 药物 概念 间 的 层次 关系 ,抽取 出 实体 Drug、 
ADR 和 ADRFrequency ,实体 间 的 关系 hasADRs hasA- 
DRFrequency ,hasDrugs, subclass 以 及 实体 各 自 的 对 象 
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fuzzy Age realAge 
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(e) 


全 ,将 数据 从 XML 文档 抽取 到 Java 对 象 中 ,随后 基 
也 过 数据 使 用 Velocity 模版 引擎 来 生成 RDE/XML X 
teg 使 用 Jena 模型 载 和 人 RDF/XML, 最终 得 到 AD- 


C C 2 di 用 2017 年 2 月 版 Disease Ontology 提供 的 doid. 
oy Ld 含 疾病 的 名 称 .类 型 ,病因 已 经 各 种 疾病 概念 间 
的 二 级 关系 ， Disease Ontology 为 OBO 文件 ,该 OBO X 
MERX RDF 三 元 组 形式 ,但 其 内 容 把 所 有 的 节点 都 
视 沟 概念 ， 把 疾病 实例 作为 概念 层次 结构 的 底层 叶子 
TR. 因此 需要 使 用 jena 对 该 OBO 文件 进行 概念 的 
ERAJ, 将 叶子 节点 显 式 转换 为 该 本 体 的 数据 层 的 
ass i. FERUS I. Disease Ontology 包含 1 905 个 概 
念 节点 和 8 276 个 实例 节点 。 

3.3 ”知识 融合 

在 对 药物 不 良 反 应 相关 本 体 进 行 融合 时 ,本 文 的 
桥接 点 特 指 本 体 模式 层 的 类 及 属性 的 相等 关系 ,以 及 
本 体 数据 层 数据 间 的 相等 关系 , 即 不 涉及 新 关系 发 现 
的 简单 融合 模式 ,并 在 模式 层 桥接 点 确定 的 基础 上 ,使 
用 Jena 中 上 自 带 的 规则 引擎 
量 实现 数据 层 的 链接 。 

定义 3( 模 式 层 融合 ) 设 模式 层 融 合 的 输入 为 = 
<51,5,,5;,…,5,;R, >。 其 中 ,5S; 表示 独立 本 体 i 的 
模式 层 , m 为 本 体 的 数目 ; R, 表示 本 体 模 式 层 之 间 的 
映射 关系 的 集合 。5; = «C, P,» ,其 中 C, 表示 本 体 i 
中 的 概念 集合 ; P, 表示 本 体 i 中 的 数值 属性 和 对 象 属 
性 集合 ,ie 11,2, ml, R, 中 的 元 素 有 两 种 类 型 : 


GenericRuleReasoner , 批 
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图 3 "Age" 的 梯形 模糊 隶属 函数 


CL) 概念 相 等 的 映射 关系 : (e, 
Class,c;) e Rs,c; e C,,ceC,,iy 代表 不 同 的 独立 本 体 。 
(2) 属 性 相等 的 映射 关系 : 
其 中 ,p;e P;, p, eP iy 代表 不 同 的 


owl: equivalent- 


( p; , owl: equivalent- 


Property, p,) € Rs, 
独立 本 体 。 

例如 本 文中 F, = < ADReCS, Disease Ontology, 
Context Ontology; R, > , 其 中 , ADReCS 本 体 包 含 概念 
| 药物 不 良 反应 (ADR) 药物 (drug) .特定 类 型 的 药物 
不 良 反应 频率 (ADRFrequency ) | ,情境 本 体 ( Context 
Ontology) 包含 概念 { 位 置 , 用 户 ,药物 .药物 评价 1 。 
ADReCS 中 的 药物 和 情境 本 体 中 的 药物 代表 同一 
概念 ,融合 时 自动 为 这 两 个 概念 添加 equivalentClass 
的 关系 ,ADReCS 中 的 药物 概念 包含 属性 | 药物 名 称 
(DRUG, NAME) ,药物 名 称 的 同义词 (DRUG_ SYN- 
ONYMS) ,…| ，Context Ontology 中 的 药物 概念 包含 对 
象 属性 | 药物 名 称 ,药物 名 称 同义词 1 ,于 是 对 这 两 个 
概念 中 的 相同 属性 添加 映射 关系 equivalentProperty , 见 
4。 

定义 4( 数 据 层 融合 ) 设 数据 层 融 合 的 输入 为 f= 
«D, ,D,,--,D,;R,» 。 其 中 , 忆 dw BARS i BAR 
据 层 , m 为 本 体 数目 , Ri 表示 本 体 数据 层 之 间 的 映射 
关系 的 集合 。D,; = <N, E, >, HF, N, 表示 本 体 i 的 
实例 集合 ,E; 表示 本 体 i 的 实例 关系 集合 。E; SN; x P, 
x N,,P, 表示 本 体 i 中 的 数值 属性 和 对 象 属性 集合 。R 
d 中 的 元 素 为 实体 相等 的 映射 关系 : (n;,owl:same4s， 
n;) e Rio 

例如 本 文中 的 情境 本 体 ( Context Ontology ) 中 疾病 
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( disease ) 概念 对 应 的 实例 实体 A 的 名 称 muscular atro- 
phy 和 Disease Ontology 中 疾病 概念 对 应 的 实例 实体 了 


加 关系 sameAs ,将 该 规则 添加 进 Jena 中 自 带 的 规则 引 


Hk 


DRUG ID 
DRUG NAME | 
DRUG SYNONYMS 
ATC 

| INDICATIONS ` 
cas  “ 
| DESCRIPTION ` 


hasADRs(« - cmi. ADR) 


| FREQUENCY, 


| ADReCS ID, 
ADR TERM _ 
ADR. SYNONYMS 
ADR, DESCRIPTION 
WHO ART CODE ~ 


| MEDDRA CODE 


> Name Wi:s 
disease ID T 
: [Abbreviation | | 
er {fibromyalgia } : : 
-M.-.- 一 一 H f 

O Tt z i : label:muscular atrophy 

- C pound ) i y As has_exact_synonym: 
eo VLATOphy |, : : owl:same Amyotrophia NOS 
O : : has exact synonym: W 
eo * pimp. 

owl:sameAs 

© | | | Disease Ontology 
~ Legend: < Specific Class < instance ——t> rdfs:subClassOf 一 Owt:Property 
E mE 


图 4 知识 融合 映射 实例 


© 
3.47 融合 结果 

_ 斧 知 识 融 合 结果 如 表 1 所 示 ,以 Context Ontology 为 
融 绚 中 介 , 最 终 形成 基于 情境 的 药物 不 良 反 应 知识 库 
ConADR Ontology。 关 于 类 的 融合 ,实现 了 ADRSec On- 
tology 和 Context Ontology 之 间 2 个 类 (不 良 反 应 、 药 
物 ) 的 相等 关系 的 映射 、Disease Ontology 和 Context On- 
tology 之 间 1 个 类 ( Disease) 的 相等 关系 的 映射 。 关 于 
实例 的 融合 ,实现 了 Disease Ontology 和 Context Ontolo- 
gy ZE 9 个 Drug 实例 和 37 个 ADR 实例 的 相等 关系 
的 映射 Disease Ontology 和 Context Ontology 之 间 35 个 
Disease 实例 的 相等 关系 的 映射 。 融 合 后 的 ConADR 
Ontology 中 的 类 的 数目 (N) 等 于 融合 前 的 所 有 本 体 中 
类 的 数目 总 和 (S) 减 去 类 映射 的 数目 (F) , 即 N = S-F; 
融合 后 的 ConADR Ontology 中 的 实例 的 数目 与 此 同 理 。 
3.5 案例 查询 应 用 

笔者 基于 SPARQL 实现 了 相似 案例 的 推荐 ,比如 

一 个 年 纪 37 岁 ,性 别 为 女 , 有 疾病 史 纤 维 肌 痛 ,准备 第 


GenericRuleReasoner ,实现 自动 推理 ,如 图 4 所 示 : 


R1 融合 结果 

nis m Drug Disease ADR 
时 间 本 体 知 识 库 类 实例 实例 m 
融合 前 ”Context Ontology 27 11 38 340 
ADRSec Ontology 3 1 354 0 8 422 

Disease Ontology 1 905 0 8 276 0 
融合 后 “ConADR Ontology 1 932 1 356 8 279 8 725 
(2,1) (9) (35) (37) 


一 次 服用 Gabapentin 的 患者 , 想 知道 自己 可 能 会 产生 


哪些 药物 不 良 反应 ,知识 库 通过 对 相似 病例 进行 模糊 
匹配 ,给 出 相似 案例 的 参考 结果 , 见 图 5。 


针对 经 验 相 关 且 非 结 构 化 情境 下 ,4 


上 现 的 信息 泛 


小、 信息 过 载 以 及 难以 实现 信息 按 需 服务 的 现状 ,笔者 
综合 考虑 环境 情境 .个 人 情境 和 领域 本 体 三 个 方面 , 提 
出 了 一 种 情境 本 体 驱 动 的 知识 融合 框架 。 


本 文 以 药物 不 良 反应 的 知识 库 构 建 为 例 ,半自动 
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Default Graph IRI http://localhost:8890/DAV/mergedContextOntology 


PREFIX dis:«http:-//purl.obolibrary.org/obo/doid.owit»- 

SELECT DISTINCT ?DrugName ?Dosage ?ADR TERM ?ADR DESCRIPTION 
FROM we 

WHERE 


( 
?User con:Age 37 . 
con:fibromyalgia con:HasDiseasesBy ?User. 
?User con:Gender ?Gender. 
FILTER regex( ?Gender, *F" ). 
?Drug adr:DRUG. NAME ?DrugName . 
FILTER regex( ?DrugName, "Gabapentin" ) 
?DrugUse con:BeEngagedin ?User. 
?DrugUse con:Dosage ?Dosage 
?Drug adr:hasADRs ?ADR. 
?ADR adrADR_TERM 7ADR TERM. 
?ADR adr:ADR DESCRIPTION ?ADR_DESCRIPTION. 


Execute Save Load Clear 
DrugName [Dosage [ADR TERM [ADR DESCRIPTION 
Gabapentin 24 — Rash Pustular Elevated skin lesions associated with the presence of purulent material. [NCI Thesaurus] 
IGabapentin eg Pain In Extremity Painful sensation in the upper or lower extremities. [NCI Thesaurus) 
Gabapentin P |Lacrimation Increased |Not Available 
[A primary headache disorder that is characterized by severe, strictly unilateral PAIN which is orbital, supraorbital, temporal or in 
Gaba 2400 [any combination of these sites, lasting 15-180 min. occurring 1 to 8 times a day. The attacks are associated with one or more of 
pentin mg |the following, all of which are E injection, lacrimation, nasal congestion, rhinorrhea, facial SWEATING, eyelid 
EDEMA, and miosis. (International Classification of Headache Disorders, 2nd ed. Cephalalgia 2004: suppl 1) [MeSH] 
Gabapentin |2400 Deafness [f general term for the complete loss of the ability to hear from both ears. [MeSH] 
Gaba 2400 G INFLAMMATION of any segment of the GASTROINTESTINAL TRACT from ESOPHAGUS to RECTUM. Causes of gastroenteritis 
pentir Img jare many including genetic, infection, HYPERSENSITIVITY, drug effects, and CANCER. [MeSH] 
Gabapentin [mg Hyperaesthesia Not Available 


图 5 


突现 了 情境 本 体 模式 层 的 构建 和 数据 层 的 扩充 ;并 以 

本 体 作为 中 介 本 体 ,实现 了 情境 本 体 .药物 不 良 反 

或 本 体 ADReCS 和 人 类 疾病 领域 本 体 Disease On- 

olgay 间 的 融合 ;最 终 在 此 基础 上 实现 基于 SPARQL 的 

案例 查询 。 本 文 的 研究 的 理论 框架 在 其 它 环境 中 ,如 

人 化 图 书馆 服务 音乐 推荐 .高 血压 服务 等 方面 同样 

ET). RA RH e 

GN 本 文 研究 也 存在 着 些 不 足 , 因 为 医药 数据 的 难 获 

取 怪 ,数据 量 比较 小 , 故 未 在 大 数据 背景 下 验证 其 有 效 

人 在 后 续 研 究 中 ,笔者 会 对 本 文 提出 的 模型 框架 进 

行 帮 深入 的 研究 与 细 化 ,对 本 体 知识 库 的 关键 技术 进 

行 佑 化 ,改进 ,以 期 望 发 据 其 在 个 性 化 服务 领域 的 更 多 

p 
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“Abstract : [ Purpose/significance | Context-awareness modeling is an important method to solve information over- 
flows information overload , and to realize information on demand, however, it always being ignored in the construction of 
kedge base, which hinders the practical application of knowledge base as well as reduces the efficiency and effective- 
ness. of knowledge service. [ Method/process | This paper proposed an ontology -based context driven multi-source knowl- 
edge! fusion framework taking the context, personal profiles and domain ontology into consideration. Under the guidance of 
this framework , this paper constructed an Adverse Drug Reactions ( ADR) knowledge base with respect to the contextual 
relevance naming ConADR Ontology. Firstly, we constructed a situation ontology which can semi -automatically update 
scli&ina and extend ontology instance, and then successfully fuse it with existed domain ontology ADReCS and Disease On- 
tology using Jena and Protégé. Finally, we developed a case query application based on SPARQL. [ Result/conclusion ] 
The-example shows that the framework has a certain feasibility and theoretical reference value for the merger and construc- 
tion of knowledge base. 

Keywords: context ontology  multi-source knowledge fusion construction of knowledge base adverse drug reac- 
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